{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "第一章：绪论\n",
    "1.1什么是数据挖掘\n",
    "数据挖掘（Data Mining）是从大量数据中挖掘或抽取出知识的过程。\n",
    "数据挖掘又称为数据库中知识发现（Knowledge Discovery from Database，简称KDD），它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。\n",
    "\n",
    "1.2数据挖掘要解决的问题\n",
    "可伸缩性：处理海量数据集，实现新的数据结构，使用抽样技术，开发并行和分布式算法。\n",
    "高维性：处理具有很多属性的数据集，计算复杂度迅速增加，需要新的数据分析技术。\n",
    "异种数据和复杂数据：处理异构属性的数据和非传统类型的复杂数据。\n",
    "数据所有权和分布：开发分布式数据挖掘技术，将需要分析的数据从一个站点或一个机构分散到多个机构的数据源中。\n",
    "非传统分析：传统的数据统计方法基于假设检验模式，但面对当前海量数据是行不通的，需要数据挖掘技术来自动产生和评估假设。\n",
    "\n",
    "1.3数据挖掘的起源 \n",
    "为迎接上述这些挑战，来自不同学科的研究者汇集到一起，开始着手开发可以处理不同数据 类型的更有效的、可伸缩的工具。这些工作都是建立在研究者先前使用的方法学和算法之上，而在数据挖掘领域达 到高潮。特别地，数据挖掘利用了来自如下一些领域的思想：(1)来自统计学的抽样、估计和假设检验，(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理。\n",
    "\n",
    "1.4数据挖掘的任务\n",
    "预测任务：根据其他属性的值预测特定属性的值，包括分类（预测离散的目标变量）和回归（预测连续的目标变量）。\n",
    "描述任务：导出概括数据中潜在联系的模式，包括相关、趋势、聚类、轨迹和异常等。\n",
    "预测建模：为目标变量建立模型，并将其作为解释变量的函数。\n",
    "关联分析：发现描述数据中强关联特征的模式。\n",
    "聚类分析：发现紧密相关的观测值组群，使得属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。\n",
    "异常检测：识别其特征显著不同于其他数据的观测值。\n",
    "\n",
    "1.5本书的内容与组织\n",
    "本书从算法角度介绍数据挖掘主要原理与技术，对想从事该领域研究的读者是个起点。\n",
    "第2章讲数据基本类型、质量等及相似性度量，是数据分析基础。\n",
    "第3章论述数据探查相关技术，助理解数据集。\n",
    "第4、5章涵盖分类，4章讲基础如决策树分类等，5章介绍更多分类技术及相关问题。\n",
    "第6、7章考察关联分析，6章说基础及评估度量，7章涉高级专题及扩展应用。\n",
    "第8、9章讨论聚类分析，介绍多种聚类技术及相关要点。\n",
    "第10章是关于异常检测，介绍不同类型异常检测。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "2.假定你是一个数据挖掘顾问，受雇于一家因特网引擎搜索公司。举例说明如何使用诸如聚类，分类，关联规则挖掘和异常检测等技术，让数据挖掘为公司提供帮助"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "1.聚类\n",
    "聚类是一种无监督学习算法，用于将相似的数据点分组在一起。在搜索引擎中，聚类可以用于搜索结果优化及文档分类。\n",
    "\n",
    "2.分类\n",
    "分类是一种有监督学习算法，用于将数据点分配到预定义的类别中。在搜索引擎中，分类可以用于垃圾邮件检测和网页质量评估。\n",
    "\n",
    "3.关联规则挖掘\n",
    "关联规则挖掘用于发现数据集中项之间的有趣关系。在搜索引擎中，关联规则挖掘可以用于用户行为分析和广告推荐。\n",
    "\n",
    "4.异常检测\n",
    "异常检测用于识别数据集中显著不同于其他数据的观测值。在搜索引擎中，异常检测可以用于欺诈检测和系统监控。\n"
   ]
  }
 ],
 "metadata": {
  "language_info": {
   "name": "python"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
